发表了深Q-Networks(DQN)[Mnih等。,2013年],从其人工智能(AI)冬季唤醒了增强学习(RL),这表明一般基于神经网络的算法可以在一系列复杂的任务中实现专家级的性能。在后来的几年中,深度神经网络的RL导致特工在Go Silver等人中击败了专业人士。[2017],Dota 2 Berner等。[2019],Starcraft 2 [Vinyals等。 ,2019年]以及更多。 因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。 同时,Openai Gym [Brockman等。 ,2016年]成为第一个广泛采用的普通API。 体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。[2019],Starcraft 2 [Vinyals等。,2019年]以及更多。因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。同时,Openai Gym [Brockman等。,2016年]成为第一个广泛采用的普通API。体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。
主要关键词